Validez de constructo

La validez de constructo es “el grado en que una prueba mide los significados que esta da.”^[1]^[2]^[3] En el modelo clásico de validez, la validez de constructo es uno de los tres tipos principales de evidencia de validez, junto a la validez de contenido y validez de criterio.^[4]^[5] La teoría moderna de la validez define a la validez de constructo como la preocupación primordial de la investigación en validez, considerando los otros tipos de evidencia de validez.^[6]^[7]

La validez de constructo es la adecuación de las inferencias hechas sobre la base de observaciones o mediciones (a menudo resultados de exámenes), específicamente si una prueba mide el constructo previsto. Las construcciones son abstracciones que son creadas deliberadamente por los investigadores con el fin de conceptualizar la variable latente, que es la causa de las puntuaciones en una determinada medida (aunque no es directamente observable). La validez de constructo examina la pregunta: ¿La medida se comporta como la teoría dice que una medida de construcción debe comportarse?

La validez de constructo es esencial para la validez general percibida de la prueba. La validez de constructo es particularmente importante en las ciencias sociales, psicología, psicometría y estudios de idiomas.

Psicólogos como Samuel Messick (1989) han impulsado una visión unificada de la validez de constructo "... como un juicio evaluativo integral del grado en que la evidencia empírica y fundamentos teóricos apoyan la idoneidad y adecuación de las inferencias y acciones basadas en resultados de las pruebas..."^[8] La clave para la validez de constructo son las ideas teóricas detrás del rasgo en cuestión, es decir, los conceptos que definen cómo son vistos los aspectos de la personalidad, inteligencia, etc.^[9] Paul Meehl afirma que "la mejor construcción es la que rodea a la que puede construir el mayor número de inferencias, de la manera más directa^[2]

Historia[editar]

A lo largo de la década de 1940 los científicos habían estado tratando de encontrar maneras para validar experimentos antes de publicarlos. El resultado de esto fue una mirada de diferentes vigencias (validez intrínseca, validez de cara, validez lógica, validez empírica, etc.). Esto hizo que fuera difícil decir cuáles no eran útiles en absoluto. Hasta mediados de la década de 1950 había muy pocos métodos universalmente aceptados para validar experimentos psicológicos. La razón principal de esto era porque nadie se había dado cuenta exactamente las cualidades que deben ser consideradas antes de publicarlo. Entre 1950 y 1954 el Comité de APA en Pruebas Psicológicas reunió y discutió los temas relacionados con la validación de los experimentos psicológicos.^[2]

Alrededor de este tiempo el término de la validez de constructo fue acuñado por primera vez por Paul Meehl y Lee Cronbach en su artículo seminal Validez de Constructo En Pruebas Psicológicas. Tomaron nota de que la idea de la validez de constructo no era nuevo en ese punto. Más bien, fue una combinación de diferentes tipos de validez que se ocupan de los conceptos teóricos. Se proponen los siguientes tres pasos para evaluar la validez de constructo:

Articular un conjunto de conceptos teóricos y sus interrelaciones
Desarrollar formas de medir las construcciones hipotéticas propuestas por la teoría
Probar empíricamente las relaciones hipotéticas^[2]

Muchos psicólogos señalan que una función importante de la validez de constructo en psicometría fue que se ponga más énfasis en la teoría en lugar de la validación. El problema central con la validación fue que una prueba podría ser validado, pero eso no necesariamente muestra que mide el constructo teórico que pretende medir. La validez de constructo tiene tres aspectos o componentes: el componente sustantivo, componentes estructurales y componentes externos.^[10] Están relacionados cerca de tres etapas en el proceso de construcción de pruebas: constitución de la agrupación de artículos, análisis y selección de la estructura interna de los elementos, y la correlación de resultados de las pruebas con criterios y otras variables.

En la década de 1970 hubo un debate que comenzó a ver la validez de constructo como el modelo dominante que empuja hacia una teoría más unificada de validez y que continuó trabajando a partir de múltiples marcos de validez.^[11] Psicólogos e investigadores de educación vieron que "la validez de constructo fue el conjunto de validez desde el punto de vista científico"^[10] En la versión de '1974' Las Normas para la Educación y Pruebas Psicológicas la interrelación de los tres aspectos diferentes de validez fue reconocida: "Estos aspectos de la validez pueden ser discutidos de manera independiente, pero sólo por conveniencia. Ellos están interrelacionados operacionalmente y lógicamente, sólo rara vez se ve a uno de ellos en una situación particular ". En 1989 Messick presentó una nueva conceptualización de la validez de constructo como un concepto unificado y multifacético.^[12] En este marco, todas las formas de validez están conectados y dependen de la calidad de la construcción. Señaló que una teoría unificada no era su propia idea, sino más bien la culminación de debate y discusión dentro de la comunidad científica en las décadas anteriores. Hay seis aspectos de la validez de constructo en la Teoría Unificada de Messick de validez de constructo.^[13] Examinan seis temas que miden la calidad de una prueba de la validez de constructo:

Consecuenciales- ¿Cuáles son los riesgos potenciales si los resultados son, en realidad, no válidos o mal interpretados? ¿La prueba todavía vale la pena dado los riesgos?
Contenido- ¿Las tareas de la prueba parecen estar midiendo el constructo de interés?
Sustantivo- ¿Es el fundamento teórico que subyace en la construcción del sonido de interés?
Estructural- ¿Las interrelaciones de las dimensiones medidas por la prueba se correlacionan con la construcción de las puntuaciones de los intereses y de las pruebas?
Externos- ¿La prueba tendrá cualidades convergentes, discriminantes y predictivas?
Generalización- ¿La prueba de generalizar lo hace a través de diferentes grupos, configuraciones y tareas?

La validez de constructo sigue siendo un tema de debate para los teóricos de validez. El núcleo de la diferencia está en una epistemología diferencia entre positivista y post-positivistas teóricos.

Evaluación[editar]

La evaluación de la validez de constructo requiere que las correlaciones de las medidas sean examinadas en cuanto a las variables que se sabe que están relacionados con la construcción. Esto es consistente con la matriz multirrasgo-multimétodo (MTMM) para examinar la validez de constructo que se describe en el artículo de referencia de Campbell y Fiske (1959).^[14] Hay otros métodos para evaluar la validez de constructo además de MTMM. Puede ser evaluado a través de diferentes formas de análisis factorial, modelado de ecuaciones estructurales (SEM), y otras evaluaciones estadísticas.^[15]^[16] Es importante tener en cuenta que un solo estudio no prueba la validez de constructo. Más bien se trata de un proceso continuo de evaluación, revaluación, refinamiento y desarrollo. Las correlaciones que se ajustan al patrón esperado contribuyen a la evidencia de validez de constructo. La validez de constructo se está evaluando en un juicio basado en la acumulación de las correlaciones de numerosos estudios utilizando el instrumento.^[17]

La mayoría de los investigadores intentan probar la validez de constructo antes de la investigación principal. Para hacer esto los estudios piloto deben ser utilizados. Los estudios piloto son estudios preliminares a pequeña escala destinadas a comprobar la viabilidad de una prueba a gran escala. Estos estudios piloto establecen la fuerza de su investigación y les permiten hacer los ajustes necesarios. Otro método es la técnica de grupos conocidos, que consiste en administrar el instrumento de medición a grupos que se espera cierta diferencia debido a las características conocidas. La prueba hipotética de relación implica el análisis lógico basado en la teoría o la investigación previa.^[3] Los Estudios de intervención son otro método para evaluar la validez de constructo. Los estudios de intervención se utilizan en un grupo con puntuaciones bajas en la construcción, les enseña la construcción, y luego vuelven a medir con diferentes pruebas la validez de constructo. Si hay una diferencia notoria entre el post-test y el pre-test, los cuales son analizados mediante pruebas estadísticas, entonces esto puede demostrar una buena validez de constructo.^[18]

Validez convergente y discriminante[editar]

Artículos principales: Validez convergente y Validez discriminante.

La validez convergente y discriminante son los dos subtipos de validez que componen la validez de constructo. La validez convergente se refiere al grado en que las dos medidas de construcciones que en teoría deben estar relacionadas, están de hecho relacionadas. En contraste, las pruebas de validez discriminante supone que los conceptos o las medidas que no guardan relación, en efecto, no se relacionan.^[14] Tomemos, por ejemplo, una construcción de la felicidad. Si una medida de la felicidad tiene validez convergente, entonces construye sentimientos similares a la felicidad (satisfacción, alegría, etc.) estos deben relacionarse estrechamente con la medida de la felicidad. Si esta medida tiene validez discriminar, entonces las construcciones no deben estar relacionadas con la felicidad (tristeza, depresión, desesperación, etc.) no deben referirse a la medida de la felicidad. Las medidas pueden tener uno de los subtipos de la validez de constructo y no el otro. Utilizando el ejemplo de felicidad, un investigador podría crear un inventario donde hay una correlación muy alta entre la felicidad y la alegría, pero también hay una correlación significativa entre la felicidad y la depresión, la validez de constructo medida se pone en duda. La prueba tiene validez convergente, pero no la validez discriminante.

Red nomológica[editar]

Artículo principal: Red nomológica

Paul Meehl y Lee Cronbach (1957) propusieron que el desarrollo de una red nomológica era esencial para la medición de un análisis de validez de constructo. Una red nomológica define un constructo ilustrando su relación con otras construcciones y comportamientos.^[2] Es una representación de los conceptos (constructos) de interés en un estudio, sus manifestaciones observables y la interrelación entre ellos. Examina si las relaciones entre construcción similar se consideran con las relaciones entre las medidas observadas de las construcciones. La observación minuciosa de las construcciones de las relaciones entre sí puede generar nuevas construcciones. Por ejemplo, inteligencia y memoria de trabajo se consideran construcciones altamente relacionadas. A través de la observación de sus componentes subyacentes, psicólogos han desarrollado nuevos constructos teóricos tales como: la atención controlada^[19] y carga a corto plazo.^[20] La creación de una red nomológica también puede hacer la observación y medición de las construcciones existentes más eficiente mediante la localización de errores.^[2] Los investigadores han encontrado que el estudio de los golpes en el cráneo humano (frenología) no son indicadores de inteligencia, pero el volumen del cerebro si lo es. Quitando la teoría de la frenología de la red nomológica de la inteligencia y añadiendo la teoría de la evolución de la masa cerebral, las construcciones de inteligencia se hacen más eficientes y más potentes. El tejido de todos estos conceptos interrelacionados y sus rasgos observables crea una "red" que apoya su concepto teórico. Por ejemplo, en la red nomológica para el logro académico, esperaríamos rasgos observables de rendimiento académico (es decir, GPA, SAT, y las calificaciones de ACT) para relacionarse con los rasgos observables para estudio (horas dedicadas a estudiar, de atención en clase, detalle de las notas). Si no lo hacen, entonces hay un problema con la medida (de rendimiento académico o estudiosidad), o con la supuesta teoría de logro. Si ellos son indicadores de unos a otros entonces la red nomológica, y por lo tanto la teoría construida, de logros académicos se fortalece. Aunque la red nomológica propuso una teoría de cómo fortalecer las construcciones, no nos dice cómo podemos evaluar la validez de constructo en un estudio.

Matriz multirasgo-multimétodo[editar]

Artículo principal: Matriz multirasgo-multimétodo

La matriz multirasgo-multimétodo (MTMM) es un enfoque para examinar la validez de Constructo desarrollada por Campbell y Fiske (1959).^[14] Este modelo examina la convergencia (evidencia que los diferentes métodos de medición de un constructo dan resultados similares) y discriminabilidad (capacidad para diferenciar el constructo de otros constructos relacionados). Mide seis rasgos: la evaluación de la validez convergente, la evaluación de la validez discriminante, unidades rasgo-método, multirrasgo-multimétodo, metodologías verdaderamente diferentes, y las características de rasgo. Este diseño permite a los investigadores probar para: "la convergencia a través de diferentes medidas de... de la misma "cosa "... y por la divergencia entre las medidas... de 'cosas' relacionadas pero conceptualmente distintas.^[21]

Amenazas a la validez de constructo[editar]

La validez de constructo puede ser engañosa debido a una serie de problemas. Las consideraciones normales de control experimental son importantes. En particular, en experimentos humanos, el participante y los conocimientos con respecto a la construcción o hipótesis adivinanda^[22] puede alterar las respuestas a fin de crear un apoyo ilusorio para la validez (p.ej. el efecto Hawthorne). Además, las expectativas del investigador, la contaminación de las condiciones de tratamiento puede alterar la respuesta. Como reflejo de la perspectiva neta nomológica, las construcciones pueden obtener apoyo simplemente definiendo su resultado predicho, sin incluir otros datos pertinentes.^[23] Por ejemplo, usando solamente satisfacción de trabajo como un indicador de la felicidad excluirá la información relevante desde fuera del lugar de trabajo. En líneacon el multi-método, perspectiva multi-rasgo, y las perspectivas del modelo estructural de ecuaciones, se aconseja usar múltiples indicadores.^[24] Experimentos de doble vista indican que los propios investigadores pueden ser amenazas para la construcción de validez, y los estudios deben tratar de controlar este efecto.

Trochim.^[25] incluye "Explicación pre-operacional inadecuada de los constructos, Mono-Operación, Mono-Método, interacción de los diferentes tratamientos, Interacción de pruebas y tratamiento, niveles de constructos, Hipótesis de adivinanzas, Aprehensión de la evaluación y expectativas del experimentador ", en sus definiciones de amenazas a la validez de constructo.^[25]

Véase también[editar]

Referencias[editar]

↑ Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice Hall Regents.
↑ ^a ^b ^c ^d ^e ^f Cronbach, L. J.; Meehl, P.E. (1955). «Construct Validity in Psychological Tests». Psychological Bulletin 52 (4): 281-302. PMID 13245896. doi:10.1037/h0040957.
↑ ^a ^b Polit DF Beck CT (2012). Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins
↑ Guion, R. M. (1980). «On trinitarian doctrines of validity». Professional Psychology 11: 385-398. doi:10.1037/0735-7028.11.3.385.
↑ Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice Hall Regents.
↑ Messick, S. (1995). «Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning». American Psychologist 50: 741-749. doi:10.1037/0003-066x.50.9.741.
↑ Schotte, C. K. W.; Maes, M.; Cluydts, R.; De Doncker, D.; Cosyns, P. (1997). «Construct validity of the Beck Depression Inventory in a depressive population». Journal of Affective Disorders 46 (2): 115-125. doi:10.1016/s0165-0327(97)00094-3.
↑ Messick, Samuel (1998). «Test validity: A matter of consequence». Social Indicators Research 45 (1-3): 35-44.
↑ Pennington, Donald (2003). Essential Personality.. Arnold. ISBN 0-340-76118-0.
↑ ^a ^b Loevinger, J. (1957). Objective Tests As Instruments Of Psychological Theory: Monograph Supplement 9. Psychological reports, 3(3), 635-694
↑ Kane, M. T. (2006). «Validation.». Educational measurement, 4: 17-64.
↑ Messick,, S. (1989). «Validity.». En R. L. Linn (Ed.),, ed. Educational Measurement (3rd ed., pp. 13-103). New York: American Council on Education/Macmillan.
↑ Messick,, S. (1995). «Standards of validity and the validity of standards in performance assessment.». Educational Measurement: Issues and Practice, 14 (4,): 5-8. doi:10.1111/j.1745-3992.1995.tb00881.x.
↑ ^a ^b ^c Campbell, D. T. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin 56: pp. 81–105
↑ Hammond, K. R., Hamm, R. M., & Grassia, J. (1986). Generalizing over conditions by combining the multitrait multimethod matrix and the representative design of experiments (No. CRJP-255A). Colorado University At Boulder Center For Research On Judgment And Policy.
↑ Westen Drew, Rosenthal Robert (2003). «Quantifying construct validity: Two simple measures». Journal of Personality and Social Psychology 84 (3): 608-618. doi:10.1037/0022-3514.84.3.608.
↑ Peter, J. P. (1981). Construct validity: a review of basic issues and marketing practices. Journal of Marketing Research, 133-145.
↑ Dimitrov, D. M., & Rumrill, Jr, P. D. (2003). Pretest-posttest designs and measurement of change. Work: A Journal of Prevention, Assessment and Rehabilitation 20(2), 159-165.
↑ Engle, R. W., Kane, M. J., & Tuholski, S. W. (1999). Individual differences in working memory capacity and what they tell us about controlled attention, general fluid intelligence, and functions of the prefrontal cortex. In A. Miyake, & P. Shah (Eds.),Models of working memory (pp. 102−134). Cambridge: Cambridge University Press.
↑ Ackerman, P. L., Beier, M. E., & Boyle, M. O. (2002). Individual differences in working memory within a nomological network of cognitive and perceptual speed abilities. Journal of Experimental Psychology-General, 131, 567−589.
↑ Cook T. D., Campbell D. T. (1979). «Quasi-experimentation. Boston: Houghton Mifflin. Edgington, E. S. (1974). A new tabulation of statistical procedures used in APA journals». American Psychologist 29: 61.
↑ McCroskey, J. C., Richmond, V. P., & McCroskey, L. L. (2006). An introduction to communication in the classroom: The role of communication in teaching and training. Boston: Allyn & Bacon
↑ MacKenzie, S. B. (2003). The dangers of poor construct conceptualization. Journal of the Academy of Marketing Science, 31(3), 323-326.
↑ White, D., & Hultquist, R. A. (1965). Construction of confounding plans for mixed factorial designs. The Annals of Mathematical Statistics, 1256-1271.
↑ ^a ^b [1], Trochim, William M. The Research Methods Knowledge Base, 2nd Edition.

Enlaces externos[editar]

Useful reference guide for research terms (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
Provides a visual representation of the nomological network
Construct Validity in Psychological Tests pdf

Datos: Q1592163

[1] Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice Hall Regents.

[Cronbach55-2] ↑ ^a ^b ^c ^d ^e ^f Cronbach, L. J.; Meehl, P.E. (1955). «Construct Validity in Psychological Tests». Psychological Bulletin 52 (4): 281-302. PMID 13245896. doi:10.1037/h0040957.

[Polit-3] Polit DF Beck CT (2012). Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins

[guion1980-4] Guion, R. M. (1980). «On trinitarian doctrines of validity». Professional Psychology 11: 385-398. doi:10.1037/0735-7028.11.3.385.

[Brown86-5] Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ: Prentice Hall Regents.

[messick1995-6] Messick, S. (1995). «Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning». American Psychologist 50: 741-749. doi:10.1037/0003-066x.50.9.741.

[Schotte97-7] Schotte, C. K. W.; Maes, M.; Cluydts, R.; De Doncker, D.; Cosyns, P. (1997). «Construct validity of the Beck Depression Inventory in a depressive population». Journal of Affective Disorders 46 (2): 115-125. doi:10.1016/s0165-0327(97)00094-3.

[Messick-8] Messick, Samuel (1998). «Test validity: A matter of consequence». Social Indicators Research 45 (1-3): 35-44.

[Pennington-9] Pennington, Donald (2003). Essential Personality.. Arnold. ISBN 0-340-76118-0.

[Loevinger-10] Loevinger, J. (1957). Objective Tests As Instruments Of Psychological Theory: Monograph Supplement 9. Psychological reports, 3(3), 635-694

[Kane06-11] Kane, M. T. (2006). «Validation.». Educational measurement, 4: 17-64.

[Messick89-12] Messick,, S. (1989). «Validity.». En R. L. Linn (Ed.),, ed. Educational Measurement (3rd ed., pp. 13-103). New York: American Council on Education/Macmillan.

[Messick95-13] Messick,, S. (1995). «Standards of validity and the validity of standards in performance assessment.». Educational Measurement: Issues and Practice, 14 (4,): 5-8. doi:10.1111/j.1745-3992.1995.tb00881.x.

[Campbell-14] Campbell, D. T. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin 56: pp. 81–105

[Hammond96-15] Hammond, K. R., Hamm, R. M., & Grassia, J. (1986). Generalizing over conditions by combining the multitrait multimethod matrix and the representative design of experiments (No. CRJP-255A). Colorado University At Boulder Center For Research On Judgment And Policy.

[16] Westen Drew, Rosenthal Robert (2003). «Quantifying construct validity: Two simple measures». Journal of Personality and Social Psychology 84 (3): 608-618. doi:10.1037/0022-3514.84.3.608.

[17] Peter, J. P. (1981). Construct validity: a review of basic issues and marketing practices. Journal of Marketing Research, 133-145.

[18] Dimitrov, D. M., & Rumrill, Jr, P. D. (2003). Pretest-posttest designs and measurement of change. Work: A Journal of Prevention, Assessment and Rehabilitation 20(2), 159-165.

[19] Engle, R. W., Kane, M. J., & Tuholski, S. W. (1999). Individual differences in working memory capacity and what they tell us about controlled attention, general fluid intelligence, and functions of the prefrontal cortex. In A. Miyake, & P. Shah (Eds.),Models of working memory (pp. 102−134). Cambridge: Cambridge University Press.

[20] Ackerman, P. L., Beier, M. E., & Boyle, M. O. (2002). Individual differences in working memory within a nomological network of cognitive and perceptual speed abilities. Journal of Experimental Psychology-General, 131, 567−589.

[21] Cook T. D., Campbell D. T. (1979). «Quasi-experimentation. Boston: Houghton Mifflin. Edgington, E. S. (1974). A new tabulation of statistical procedures used in APA journals». American Psychologist 29: 61.

[22] McCroskey, J. C., Richmond, V. P., & McCroskey, L. L. (2006). An introduction to communication in the classroom: The role of communication in teaching and training. Boston: Allyn & Bacon

[23] MacKenzie, S. B. (2003). The dangers of poor construct conceptualization. Journal of the Academy of Marketing Science, 31(3), 323-326.

[24] White, D., & Hultquist, R. A. (1965). Construction of confounding plans for mixed factorial designs. The Annals of Mathematical Statistics, 1256-1271.

[Trochim,_William_M.-25] [1], Trochim, William M. The Research Methods Knowledge Base, 2nd Edition.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]